AI资讯新闻榜单内容搜索- DeepSeek

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索:  DeepSeek
过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

随着 OpenAI o1 和 DeepSeek R1 的爆火,大语言模型(LLM)的推理能力增强和测试时扩展(TTS)受到广泛关注。然而,在复杂推理问题中,如何精准评估模型每一步回答的质量,仍然是一个亟待解决的难题。传统的过程奖励模型(PRM)虽能验证推理步骤,但受限于标量评分机制,难以捕捉深层逻辑错误,且其判别式建模方式限制了测试时的拓展能力。

来自主题: AI技术研报
6950 点击    2025-04-14 14:39
为什么李飞飞团队经常cue通义千问?

为什么李飞飞团队经常cue通义千问?

为什么李飞飞团队经常cue通义千问?

Qwen 3还未发布,但已发布的Qwen系列含金量还在上升。2个月前,李飞飞团队基于Qwen2.5-32B-Instruct 模型,以不到50美元的成本训练出新模型 S1-32B,取得了与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型数学及编码能力相当的效果。如今,他们的视线再次投向了这个国产模型。

来自主题: AI资讯
6639 点击    2025-04-12 12:02
200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)带来了新的 post-training scaling law,强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。然而,针对大语言模型的大规模强化学习训练门槛一直很高:

来自主题: AI技术研报
9121 点击    2025-03-31 15:07
与真格戴雨森聊 Agent:各行业都会遭遇 “李世石时刻”,Attention is not all you need

与真格戴雨森聊 Agent:各行业都会遭遇 “李世石时刻”,Attention is not all you need

与真格戴雨森聊 Agent:各行业都会遭遇 “李世石时刻”,Attention is not all you need

晚点:过去将近 6 个月,AI 领域最重要的两件事,一是 OpenAI 去年 9 月 o1 发布,另一个是近期 DeepSeek 在发布 R1 后掀起全民狂潮。我们可以从这两个事儿开始聊。你怎么看 o1 和 R1 分别的意义?

来自主题: AI资讯
7729 点击    2025-03-29 00:33
先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?

先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?

先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?

在春节的 DeepSeek 大热后,大模型也更多走进了大家的生活。我们越来越多看到各种模型在静态的做题榜单击败人类,解决各种复杂推理问题。但这些静态的测试与模型在现实中的应用还相去甚远。模型除了能进行对话,还在许多更复杂的场景中以各种各样的方式与人类产生互动。除了对话任务外,如何实现大模型与人的实时同步交互协作越来越重要。

来自主题: AI技术研报
3686 点击    2025-03-18 17:30
AI进入推理模型时代,一文带你读懂思维链

AI进入推理模型时代,一文带你读懂思维链

AI进入推理模型时代,一文带你读懂思维链

近段时间,推理模型 DeepSeek R1 可说是 AI 领域的头号话题。用过的都知道,该模型在输出最终回答之前,会先输出一段思维链内容。这样做可以提升最终答案的准确性。

来自主题: AI技术研报
7990 点击    2025-03-16 14:53
OpenAI 提案要求禁用 DeepSeek,呼吁打压中国 AI,彻底暴露双标本质

OpenAI 提案要求禁用 DeepSeek,呼吁打压中国 AI,彻底暴露双标本质

OpenAI 提案要求禁用 DeepSeek,呼吁打压中国 AI,彻底暴露双标本质

据外媒 TechCrunch 报道,OpenAI 近日在一项新的政策提案中,将 DeepSeek 描述为被官方资助和控制的实体,并呼吁对该机构及类似机构开发的中国 AI 模型实施禁令。OpenAI 在提案中指出:「虽然目前美国在 AI 领域仍保持领先,但 DeepSeek 的出现表明,这一领先优势并不大,且正在缩小。」

来自主题: AI监管政策
8263 点击    2025-03-14 10:26
晓睿商业洞察|全网吹爆的Manus,其实是一场可笑至极的炒作

晓睿商业洞察|全网吹爆的Manus,其实是一场可笑至极的炒作

晓睿商业洞察|全网吹爆的Manus,其实是一场可笑至极的炒作

让人感到非常费解的是,在这些媒体口中如此“王炸”的 AI 突破,在海外几乎没有什么讨论,这与 DeepSeek 墙内开花墙外香,海外各路 AI 大神们甘当自来水疯狂吹爆的现象形成了巨大的反差

来自主题: AI资讯
5051 点击    2025-03-07 14:02
想并肩 DeepSeek 不能靠自嗨和邀请码

想并肩 DeepSeek 不能靠自嗨和邀请码

想并肩 DeepSeek 不能靠自嗨和邀请码

如果根据AI自媒体们的标题来看,昨天全世界AI圈应该无人存活,因为他们又被“炸”了。

来自主题: AI资讯
5961 点击    2025-03-06 17:23
Manus产品负责人张涛万字解析:DeepSeek R1是怎么炼成的?

Manus产品负责人张涛万字解析:DeepSeek R1是怎么炼成的?

Manus产品负责人张涛万字解析:DeepSeek R1是怎么炼成的?

编辑注:今天上线的Manus引发了全网的 Agent 热潮,Manus 背后的产品团队——Monica.im 的产品团队也引起了大家的关注。Manus产品负责人张涛在 2 月份曾经有过一次公开分享,解读 DeepSeek R1 成功背后的技术进步和产品思路,从中可以一窥 Manus 的部分解题思路。

来自主题: AI资讯
8460 点击    2025-03-06 17:22